Machine Learning Foundations - L4 Notes(下)

Contents

  1. 1. 三 Connection to Learning
    1. 1.1. 與學習間的對應
    2. 1.2. 整個過程
    3. 1.3. 套進公式
    4. 1.4. 驗證 h
    5. 1.5. 練習
  2. 2. 四 Connection to Real Learning
    1. 2.1. 不好的資料
    2. 2.2. 多個 h  
    3. 2.3. 終於可以學習了  
    4. 2.4. 練習

三 Connection to Learning

verification possible if $E_{in}(h)$ small for fixed $h$

與學習間的對應

這部分看了很多次,但還是有點難以理解 bin model 和 learning 兩者對應的關係…所以可能會有誤。

用前面瓶子取彈珠的例子,來說明學習。

在瓶子中,我們不曉得的是 橘色的機率 。而在學習中,我們不曉得的是 target function ,所以我們自然無法知道在某一點時的 $f(x)$。
我們有興趣知道的是某個 $h(x)$ ,其結果是否與 $f(x)$ 一樣。

我們會有個 固定的 $h$ ,和專屬 $h$ 的瓶子。
這邊做個動作,從資料中,當 $h(x) = f(x)$ 兩者一樣時就把彈珠漆成 綠色,不一樣則為 橘色。 不需要知道 $f$ ,這就像是直接從原先瓶子裡取出幾個彈珠,來看是橘色還綠色一樣。

這樣的用意為何? 如果從專屬 $h$ 的瓶子裡取出一把彈珠,就好比從資料中取出 $x_n$ 一樣。
我們檢查 $h$ 在資料中的表現怎麼樣, 也就是 在專屬 $h$ 的瓶子中 橘色彈珠的機率(不一樣則為 橘色)。
而在 bin model 中則為 取樣 size-N 的樣本,裡面橘色的機率

資料量夠大 => 抓一把夠多的彈珠
如同 bin model 中,藉由 sample 來推論 $\mu$;
學習中是利用 $h$ 在 已知資料 中的表現,來推論 $h(x)$ 和 $f(x)$ 的關係,目的就是要得知在 未知資料 中的表現狀況。(Hoeffding’s Inequality)

(i.i.d. = Independent and identically distributed random variables)

4-3-1

整個過程

我們有個機率,用於取樣產生資料,還有衡量 $h$ 和 $f$。 $h$ 是從 hypothesis set 中取出的一個。
我們可以利用產生出來的資料來說很多事(ex. $h$ 和 $f$ 的關係)

(虛線表示我們不知道)

4-3-2

$E_{out}$ 就是 整個瓶子,$h$ 和 $f$ 一不一樣,相當於 $\mu$。(我們不知道的)
$E_{in}$ 則是 取樣 出來的,相當於 $\nu$ ,可以拿來推論整個瓶子中,$h$ 和 $f$ 一不一樣。(我們知道的)

in 表示 in-sample ,反之則為 out 。

套進公式

把前面提到的 $\mu$ 和 $\nu$ 替換成 $E_{out}$$E_{in}$,分別為在 樣本外 的錯誤率和 樣本內 的錯誤率。
在 Hoeffding’s Inequality 下,如同前面所提,我們不需要知道 $f$ => $E_{out}$ ,就能利用 $E_{in}$ 推到 $E_{out}$

結論則是: $E_{in}(h)$ 很小 => $E_{out}(h)$ 很小,這樣子的誤差推估。$h$ 和 $f$ 也就很接近。

4-3-3

驗證 h

但只有這樣不能算是學到東西,因為它是個固定的 $h$ ,是你強迫演算法去選它的。我們一切的推導,皆是發生在那個 $h$ 上, 但這樣子選得 $h$ 通常不會很好,所以得到的是 $g$ 和 $f$ 不接近。
($h$ 是 set 中的一個,$g$ 是選出來的那一個)

而真正的學習應該要能 挑選 $h$ ,而不是只會選某一個。所以這個過程只能算是 Verification ,驗證 $h$ 的誤差。

4-3-4

其流程長這樣:

4-3-5

我們的資料沒有經過 learning ,也不需要一個 hypothesis set 。

練習

得知了一個股票的規律,從過去 10 年的資料,抽樣 100 天來驗證這個規律,其中 80 天是符合的。
藉此我們能得知什麼?

4-3-6

四 Connection to Real Learning

learning possible if $\vert{H}\vert$ finite and $E_{in}(g)$ small

不好的資料

如果今天有很多個 $h$ 就代表著有很多瓶子,如果其中一個瓶子抓出來的彈珠皆是綠的 ( $h(x) = f(x)$ 才會漆成綠的),要不要選它呢?

4-4-1

這邊的例子是擲硬幣,本來 1 個人全擲到正面的 機率很小,但 150 人中至少 1 人的機率卻 非常大。這就像是去選擇其中一個硬幣,來說這個硬幣比較特別。

本來 Hoeffding’s Inequality 告訴我們,樣本和母體得出來的 $E_{in}$$E_{out}$ ,相差很遠的機率很小,然而選擇這個動作卻 提高了不好的可能性

老師留言:

獨立地拿每一顆硬幣丟十次,都會被原始的 Hoeffding 式子限制住。「獨立」 隨機的選擇一顆硬幣,並不會改變這個特性,但 「相依」 的選了個「最佳」硬幣,就會破壞掉這個特性了。

每次抓一把一把都可以看成取不同的資料,也就是不同的 $D_n$,而 Hoeffding 保證的是: 選得資料是 BAD 的機率很小(前面提到的公式)。也就是圖中下方格子裡填 BAD 的很少,下方數學式子則是把所有對 $h$ 是 BAD 的資料之機率加起來,結果會是很小的。

BAD 的資料就是 $E_{in}$$E_{out}$ 相差很多的。

4-4-2  

多個 h  

我們必須確保演算法能自由自在地挑選 hypothesis ,所以不能有對某個 $h$ 時 $D$ 是 BAD 的情形發生,也就是圖中 $D_n$ 的某一直行,都必須不是 BAD。(圖中 1126)

4-4-3

然後現在我們想知道的是,對所有 hypothesis (M 個),這個 BAD 資料發生的機率是多少?

4-4-4

可以說如果資料量夠大,就可以確保對所有挑出來的 $h$ , $E_{in}(g)$$E_{out}(g)$ 是 PAC。
這樣就能說最合理的做法,就是選一個 $E_{in}(g)$ 為最小的, 幾乎可以確定$E_{out}(g)$ 也是最小的。

終於可以學習了  

結論上來說,只要我們的 hypothesis 有限 (M 個),N 足夠大,就能保證演算法能自由地挑選 $h$ 來當 $g$。
且挑出來的 $E_{in}(g)$$E_{out}(g)$ 接近,只要 $E_{in}(g)$ 非常小,$E_{out}(g)$ 也會非常小。

=> learning possible

圖中多的兩條虛線,有一個機率函數,右邊的是如何測試 $g$ 和 $f$ 接不接近,左邊的是如何產生資料。

4-4-5  

練習

4-4-6

如果某資料對 $h_1$ 是 BAD 的,$h_3$ 就只是 $h_1$ 的相反,其 $E_{in}$$E_{out}$ 仍會相差很多,也就是 BAD。

3 是原本 Hoeffding 式子推導出來的,而 4 則是 D 有重疊到的部分。